查看原文
其他

思必驰发布 DUI 开放平台,全链定制化赋能更多终端 | 专访

2017-09-08 藤子 机器之能

作为一个全链路定制化开放式语音对话平台,思必驰旗下的开放平台 DUI 能实现从唤醒词、语音识别、语义理解到对话管理、输出以及 TTS 都能实行定制。


撰文 | 藤子

编辑 | 刘燕


9 月 7 日,思必驰在北京召开 2017 思必驰 DUI 开放平台发布会上,宣布 DUI 开放平台正式开放注册。作为开放式对话平台,DUI 覆盖多应用场景和第三方内容资源,内置语音及语言技能库,为物联网、移动互联网和互联网的开发者提供单项技术服务和完整的、定制的智能对话交互解决方案。

事实上,实现技术平台全面开放的背后,是思必驰从 2013 年开始的三次定位与调整:2014年,专注场景体验,扶持软硬一体的车萝卜 HUD,2015 年开始深耕细分市场,2016 年开发 DUI 平台到现在,目前思必驰技术应用的产品触达用户数千万。

与此同时,在主要方向上,思必驰也颇有收获。据高始兴描述,思必驰已经扎根三大垂直领域——在车联网后装市场,思必驰已经达到了 60%(合作伙伴、市场端的占有量),今年年底预计达到 70%;在音箱领域,跟包括富士康、联想、阿里、小米、腾讯等众多伙伴达成了合作;玩具市场中,思必驰的合作伙伴数量也已经过半。

「这 4 年来我们一直坚持一个梦想,我们希望找到更大的市场,让我们的对话交互赋能给更多的终端。」思必驰 CEO 高始兴在发布会上表示。

在不断尝试的语音路上,找到如今的方向——开放式语音对话平台

思必驰于 2007 年成立,当时,语音识别多用于呼叫中心、国家教育项目。思必驰同样从英语教育切入,试图让智能设备成为口语教师,学生通过人机对话学习口语,教师利用智能设备呼应口语教学。

在这个领域,思必驰占据了 40% 的市场份额。然而,教育市场的狭窄,始终无法撑起语音识别的广泛应用。2011年,苹果发布 Siri ,在震动业界的同时,也让大量开发者认为语音交互的春天已经到来,很多 App 开发者都希望通过语音实现搜索,使用语音交互,而不是触摸交互。

思必驰同样看到了这一方向的前景,于是在 2012 年开启移动互联网市场探索,开始研发口语对话系统平台,一年后,推出「对话工场」,作为国内第一个口语对话系统,「对话工场」试图将其口语对话能力提供给 App 开发者,使 App 开发者的用户能够通过语音调用服务。同时,教育事业部在2014年分拆,成立了「驰声科技」。


然而,起了个大早的思必驰发现行业的成熟度并非像起初想象的那样。2015 年,思必驰暂停「对话工场」,研发 AIOS 对话操作系统。尽管暂停了「对话工场」,但对对话平台念念不忘的思必驰在 2016 年,观察到行业的成熟度正在发生变化,2016 年初,思必驰内部开始进行 DUI 开放平台的策划及模块化尝试。2016 年底,搭建平台,并将 DUI 平台部门升级为思必驰重大战略方向。思必驰 VP、DUI 开放平台负责人赵恒艺认为,从 2017 年市场上纷纷冒出的对话开放平台来看,也证明了这个市场的成熟度。

然而,赵恒艺认为,行业的进步离不开大量标准化的产品,这能给全行业的终端用户提供良好的用户体验。但是,基础用户体验提升之后,又需要差异化的竞争力,需要在各个环节、功能点、场景进行定制化工作。思必驰正是顺应这一趋势,给出了自己的答案——定制规模化,解决当前行业的——技术提供商的定制效率与 B 端客户对产品迭代和需求不能很好的被满足的主要矛盾。

因而, DUI 开放平台主打规模化定制。作为一个全链路定制化开放式语音对话平台,DUI 能实现从唤醒词、语音识别、语义理解到对话管理、输出以及 TTS 都能实行定制。

但是,从技术到产品和平台,赵恒艺认为,中间有很长的路,而在此次发布会上,随同发布的 DUI 平台的四个系统,则保证了平台不仅仅是停留在工具层面,而是成熟的易用的平台。

青囊系统:如何建立迭代的系统,如何支持客户的定制和需求的迭代,这都需要建设整个的服务里,青囊系统正是为了这样的目的而被打造的。青囊系统是 DUI 服务力和研发支撑的一个系统。它可以缩短开发者发现问题、反馈问题、更新 Bug,再到更新版本,从反馈到迭代这样一个闭环链条。

紫薇系统:如果要进行对话交互,就需要连接大量的内容和服务,才能满足用户的个性化需求。而这是紫薇系统的功能。

天机系统:这是思必驰 DUI 平台的洞察力系统,通过平台的大数据系统,可以实现对用户画像,以及智能推荐的需求。除此之外,还能分析用户每个请求的日志,并对结果进行实时反馈。对于开发者来说,一个请求是识别错误,还是解析错误,发生了什么问题,如何去定位,天机系统则能当场定位问题发生的现场。

玲珑系统:在 DUI 的控制台,定制的对话系统最终要落地到终端产品,无论终端产品是手机上的 APP,还是在电视上、音箱、微信或网页上。但是,这样一个平台总是要有一个落脚点。玲珑系统可以非常方便地进行一个跨平台的转接。

在带领研发 DUI 的过程中,赵恒艺也深刻地认识到,从工具到产品,需要不断打磨细节,才能最终真正服务于用户。正是如此,相比其他语音交互平台,DUI 开放平台则更为产品化。

从平台层面解决客户的痛点

在赵恒艺看来,DUI 能从工具上升到平台,则完全是由于思必驰过去的积累。尽管过去做「对话工场」,行业的成熟度和热度并没有达到期望的地步,却积累了不少客户以及行业合作伙伴,比如导航电子地图提供商易图、车载电子产品方案提供商诺威达、基于 HUD+ 语音操控人机对话的智能车载机器人的车萝卜等,还有联想电视、美的空调等以及一些故事早教机、芯片厂商等。

在跟客户的协作时,思必驰踩过了很多坑,了解了很多 B 端客户的痛点。以车载领域为例,在思必驰对接车载的相关客户时,发现客户需要对本地和云端进行混合识别,并开发混合的技能。然而,各家车载设备使用的底层芯片和硬件都不相同。

不同车载设备对平台的需求不尽相同,思必驰从过去的经历中,已经看到了这一点。因而从一开始的 DUI 规划设计中,思必驰就决定将这些痛点集成在平台中,从平台层面去解决。但这并非易事,因为这对 DUI 平台的整个语音系统都会带来挑战。


思必驰只能下苦功夫,调试大量的参数,测试每一个项目,在平台上就进行与合作伙伴的硬件相关的优化。通过这样的方式,既能满足不同客户的不同需求,同时也可以大为缩减客户在前端设备的调试时间,因此工程落地的速度也会提高。在此前,客户使用思必驰的平台进行落地,需要花费两三个月,而在 DUI 平台上,只需要一周时间即可。

在赵恒艺看来,这也是中小型企业在人工智能行业有所作为的方法,思必驰正是如此,专注于有限的领域,比如智能车载、智能家居、机器人、芯片,在这些领域中与客户密切配合。「从同一个产品的概念设计到真正量产落地,这样的优化,对行业而言,也是有推进作用的。」赵恒艺说。

在平台上,如何将客户的需求从技术方面实现?

从规划 DUI 平台时,思必驰就注意根据客户的需求,解决其中的痛点。然而,每个客户都有自身的需求,要将这些不同的需求集合在同一个平台上,技术上如何实现,对思必驰而言,同样是一个难题。

赵恒艺介绍,首先需要对技术进行解耦,处理前面的信号,在信号处理之后,针对不同的场景,进行语音识别的引擎设计,思必驰如今有多个引擎,都是针对场景的设计。在语音识别之后,是声学模型和语言模型,在这个阶段进行较好的定制,比如用户侧重于影视领域,有大量的电影,就对用户进行语言模型的定制,而每个语言模型,思必驰都在服务端为用户定制大量资源,赵恒艺认为,只有这样才能真正实现产品化。

其次是自然语言理解,在这个阶段,思必驰也会针对不同场景进行定制。之后是对话管理,赵恒艺介绍,在这方面,思必驰也做了大量的工作,能使用户进行相关定制,而他们也可以跟客户一起进行对话管理。

同时,赵恒艺也认识到,在这个基础上,每个客户都需要自己个性化的东西,因此他们将这种个性化赋予客户,比如如何回复回话,对话的逻辑,GUI 等同样可以定制,而声音也可以定制,用户可以自己上传自己的声音,生成专属于自己的一个TTS 个性的合成音。

赵恒艺总结,这是一个整套的技术模块,而他们则全将这些技术模块转化成产品侧的解决方案。比如在车载解决方案、故事机、机器人等家居解决方案,DUI 平台都匹配不同的场景。而实现交互的整个过程,思必驰把这些链条都打散,使其变得更加灵活,因而客户能更好的实现定制。在平台上集成了百度地图、高德地图、腾讯音乐,酷爱音乐,大众点评,美团等,匹配后端的资源后,平台则可以做到用户级的自适应。

事实上,这样的解决方案,对思必驰来说,也并不容易。用户都有独一无二的解码器、用户空间以及其他信息,思必驰需要结合上下文,进行用户的个性化识别,包括语言模型的设计,这对思必驰的后端资源都带来了巨大的消耗。这些对思必驰整个语音解决方案,都是巨大的压力。而如果按照此前的技术方案,即使服务器扩展一百倍,也无法支撑这么多内容。因为每个解码器都需要重新沟通,重新构建,用户级别的资源,也使后端很重。

赵恒艺感叹,如果单单从技术层面来实现,实际上并不难,但是如果考虑到整体的用户量,则不容易。因为少数用户,与 10 亿级别的用户量,对底层技术的要求显然不可同日而语,并不是仅仅扩展服务器那么简单的事情,而如今,他们已解决这个难题,使 DUI  平台能够支撑大量的用户。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存